Grande centro di calcolo:
I sistemi HTC, come questo, seguono un paradigma di calcolo batch:
I sistemi HTC sono progettati per gestire un grande numero di job, massimizzando l’utilizzo delle risorse disponibili
prevedere un job che fallisce → consente di ridurre lo spreco di risorse
idea: predire il fallimento di un job di lunga durata è sicuramente più importante rispetto a predire il fallimento di un job di breve durata
Solo a Marzo 2023: 1194 giorni di calcolo persi.
leakage delle risorse fino al timeout.
Possiamo utilizzare una heatmap per visualizzare i jobs zombie in relazione a DISK, SWAP e RAM
Prima ora di vita di un job su logs fine 2021
Input: i valori di utilizzo di DISK, SWAP e RAM nella prima ora delle serie storiche sono state trasformati in features (ad esempio: DISK_0, DISK_1, DISK_2, DISK_3)
Sulla prima metà di settembre 2021, sono stati addestrati diversi modelli di ML e, tra essi, il modello risultato vincente è stato XGBoost
Prime 24 ore di vita di un job su logs inizio 2023 → padding e truncate
Input: tensore 3D (batch_size, time_steps, features)
Architetture di reti neurali utilizzate:
le reti neurali hanno mostrato performance inferiori alle aspettative
il precedente modello XGBoost, addestrato solo sulla prima ora, è statisticamente migliore
normali → scelti casualmentezombie → generati da variational autoencoderProblemi:
Possibili sviluppi: